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多 级 属性 Q 矩阵 的 验证 与 估计 
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摘要 多 级 属性 是 将 诊断 测验 中 传统 的 二 值 ( 即 两 种 水 平 ， 
, Fes e ane 


为 多 值 (多 个 水 平 可 以 为 0，1，…) 
且 可 以 描述 学 


掌握 详情 


生 在 属性 上 的 掌握 程度 ， 这 样 使 得 诊断 测 
。 本 文 将 适用 于 二 级 属性 Q HE 
阵 验证 和 估计 ， 在 两 种 常见 的 条 件 下 ， 设 计 了 两 种 估计 算法 : 


计算 法 。 模 拟 实验 结果 表明 : 联合 但 


当初 始 Q 矩阵 中 包含 较 少 的 错误 时 ， 


在 线 估计 算法 适用 于 对 “新 项 目 ” 进 行 属性 
， 在 线 佑 计算 法 对 于 天 
数据 分 析 则 进一步 展示 了 该 方法 的 使 用 。 


f m e 基础 项 目 » 


关键 词 多 级 属性 
1 引言 


,Q 和 矩阵 , PG-DINA 


通过 联合 信 i 


E 阵 的 统计 量 (统计 量 ) 拓 展 到 多 级 属性 下 的 Q Fe 


定义 为 0 和 性 定义 
掌握 ， 而 
补 试 更 丰富 的 知识 


验 能 提供 给 


联合 估计 算法 和 在 线 估 


由 计算 法 适用 于 对 专家 界定 的 初始 Q 矩阵 进行 验证 


十 算法 有 很 大 可 能 恢复 正确 的 Q 矩阵 ; 


向 量 和 项 目 参数 的 在 线 标定 ， 基 于 一 定数 


模型 , 统计 量 


139 H If fr 
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随 着 社会 的 发 展 ， 教 育 和 心理 测验 已 经 不 满足 于 单一 的 总 体 评 价 (overall 


UM 


assessment). 


Z WT VE fr (cognitive diagnosis assessment, CDA) 可 以 提供 学 


生 在 知识 上 


的 掌握 详情 ， 已 受到 社会 的 广泛 关注 (Leighton & Gierl, 2007; Tatsuoka, 2009; Rupp et al., 


2010; 罗 照 感 , 2019; von Davier & Lee, 2019) . 


(classical test theory, CTT) 或 基于 项 目 


反应 理 


提供 学 


zx (knowledge state, KS), 


果 的 评价 起 到 很 好 的 指 
通常 情况 下 ，CDA 中 学 
了 某 个 知识 ， 
CDA 中 细 粒 度 的 知识 月 


生 对 知 


0 表示 没有 掌握 ， 即 学 生 对 知 


识 的 掌握 


上 的 掌握 情况 就 是 学 生 的 KS。 因 此 ， 学 生 的 KS 


的 掌握 情况 用 0 和 1 来 描述 


的 好 处 是 相对 简单 ， 
准确 刻画 学 生 在 属性 上 的 掌握 程度 ， 因 为 两 个 在 某 属 性 
是 有 掌握 程度 上 的 区 别 的 。 也 正 是 因为 如 此 ， 有 很 多 研 


传统 的 测验 ， 如 基于 经 典 测验 理 i 


论 (item response theory, IRT) 的 测 


论 


验 都 仅仅 


生 的 总 体 分 数 或 能 力 ， 除 了 这 个 总 体 评 价 之 外 ，CDA 还 可 以 提供 学 生 的 知识 状 
这 个 知识 掌握 状态 可 以 对 学 生 的 学 习 、 教 师 的 教学 和 教学 效 
导 和 参考 作用 。 


情况 是 用 0 或 1 来 描述 ，1 表示 学 生 和 掌握 
识 的 掌握 仅仅 有 2 个 水 平 。 文 献 
用 属性 (attribute; Leighton et al., 2004) 来 描述 ， 学 生 在 这 多 个 属性 


! 通 常 把 


通常 是 一 个 二 值 向 量 。 将 学 生 对 属性 
容易 解释 ， 但 是 却 也 相对 粗糙 ， 不 能 


上 的 状态 都 为 0 的 学 生 之 间 还 
究 者 考虑 将 属性 的 二 种 取 值 考 


虚设 置 成 多 种 取 值 (Karelitz, 2004; von Davier, 2005; Chen & de la Torre, 2013; Sun et al., 


2013; Beta LRA, 2015; 涂 冬 波 , BHA, 2015; 7 


有 


al., 2021)。 实 际 应 用 中 ， 


"ER 日 期 : 2021-10-06 
国教 育 科 学 规划 项 目 (BGA210060); Y 


社会 科学 基金 项 目 (21JY06); Y 


med 南昌 市 教育 大 数据 智 傅 


技术 重点 实 


GJJ191691, GJJ191128) 资 助 。 
通信 作者 : 喻 晓 锋 , E-mail: xyu6@jxnu.edu.cn 


1 


验 室 (2020-NCZDSY-012); i 


[3A 等 , 2016; Zhan et al., 2020; Shang et 
民 多 情况 都 是 对 知识 属性 的 多 水 平 要 求 和 考查 , 比如 《全 日 


西 省 高 校 人 文 社会 科学 项 目 
教育 厅 科 技 项 目 (GJJ212602， 


py 4 


和 “运用 ”这 4 个 顺序 类 别 词 ) 


制 义 务 教 育 数学 课程 标准 (修改 稿 )》 中 就 使 用 “了解 (认识 六 、“ 理 解 ”、“ 掌 握 
[来 表述 知识 技能 目标 的 不 同 水 平 。 因此 ， 多 级 属性 能 


” 


够 对 学 生 做 出 更 为 精细 地 划分 ， 将 属性 定义 成 多 级 的 诊断 测验 具有 现实 应 用 价值 和 前 


Ed 
ATK o 


也 正 是 因为 如 此 ， 研 究 者 们 对 基于 多 级 属性 的 CDA 展开 了 研究 ， 有 针对 性 地 开发 
比如 Karelitz(2004) 构 建 了 基于 顺序 类 别 属性 编码 (ordered-category 
attribute coding, OCAC) 的 诊断 模型 OCAC-DINA， 并 且 对 Q@ 和 矩阵 中 存在 缺失 时 的 参数 


了 诊断 模型 ， 


估计 和 分 类 进行 研究 ， 还 


基于 其 它 诊断 模型 所 开发 的 多 级 属性 模型 ， 像 RRUM 下 的 


多 级 属性 模型 (Templin, 2004)，LCDM 下 的 多 级 属性 模型 (Templin & Bradshaw, 2004); 
GDM 下 的 多 级 属性 模型 (Haberman, von Davier, & Lee, 2008; von Davier 2005); Zhan 等 


人 (2020) 构 建 了 高 阶 的 多 级 属性 的 诊断 模型 等 ， 与 前 


(2021) 借 鉴 多 维 


这些 研究 不 同 的 是 ，Shang 等 人 


IRT 的 思想 ， 定 义 连续 的 多 级 属性 ， 并 且 构 建 了 可 以 处 理 连续 多 级 属性 


的 诊断 模型 。 同 传统 的 CDA 一样， 多 级 属性 CDA 中 的 Q 矩阵 的 作用 也 十 分 关键 ， 它 


的 正确 性 会 直接 影响 模型 参数 的 识别 、 被 试 的 分 类 乃至 整个 测验 的 信 度 和 效 度 。 并 且 


更 重要 的 是 ， 在 实际 应 用 中 ， 仅 仅 由 专家 界定 的 Q@ 和 矩阵 很 容易 出 现 错误 或 专家 意见 不 
一 致 的 情况 (de la Torre, 2008; 涂 冬 波 等 , 2012; DeCarlo, 2012; Liu et al., 2012; 喻 晓 锋 等 ， 
2015; Yu & Cheng, 2020)。 从 目前 已 有 的 研究 来 看 ， 研 究 者 们 采用 的 多 级 属性 Q 矩阵 大 


都 是 由 专家 界定 或 模拟 生成 ， 通 常 假定 它 是 正确 的 ， 没 有 对 它 的 正确 性 或 合适 性 进 4 
验证 ， 还 缺乏 对 多 级 属性 Q H 


观 的 方法 来 对 其 1 


的 方法 ， 以 期 能 促进 多 级 属性 CDA 的 发 展 。 


2 多 级 属性 0 矩阵 及 诊断 模型 


断 模型 进行 介绍 。 


2.1 多 级 属性 QBPME 
为 方便 介绍 ， 在 不 引起 误解 的 情况 下 ， 将 仅仅 有 0, 1 两 种 取 值 的 属性 称 为 二 级 属 


行 
E 阵 的 验证 和 估计 方法 进行 研究 。 因 此 ， 迫 切 需 要 研究 客 
FE 确 性 进行 验证 或 估计 。 本 研究 拟 将 适合 二 级 属性 下 QR 
估计 方法 拓展 到 适合 多 级 属性 Q@ 秆 阵 的 情况 ， 研 究 客 观 的 验证 或 佑 计 多 级 属性 Q 矩阵 


E 阵 的 验证 和 


在 正式 介绍 多 级 属性 Q 矩阵 的 估计 算法 之 前 ， 首 先 对 多 级 属性 Q 矩阵 及 对 应 的 诊 


性 (binary attribute)j， 仅 仅 由 二 值 属 性 构成 的 Q 矩阵 称 为 二 级 属性 Q 矩阵 (binary-attribute 


Q matrix, BQM)， 用 表示 ， 将 采用 的 CDA 记 为 BCDA; 将 可 取 0，1，2，… 多 种 值 的 
属性 称 为 多 级 属性 ， 包 含 多 级 属性 的 Q@ 和 矩阵 称 为 多 级 属性 Q 矩阵 (polytomous-attribute 
， 用 表示 ， 将 采用 的 CDA 记 为 PCDA。 是 一 个 的 矩阵 ， 其 中 和 分 别 


Q matrix, PQM) 
ZRT H AA ee T 


E 数 ， 中 的 元 素 记 为 ， 与 二 级 的 不 同 ， 


的 有 个 水 平 ， 取 值 空间 为 。 


AS 


下 面 以 一 简单 的 多 级 属性 Q 矩阵 (Karelitz, 2004) 为 例 ， 这 个 中 有 4 个 项 目 ， 共 考察 
了 2 个 属性 ， 其 中 属性 1 和 属性 2 绰 有 0，1，2，3，4 共 5 个 水 平 。 


(1) 
如 果 属 性 按 按 传统 的 二 级 方式 ， 用 0 作为 截断 点 来 对 属性 进行 划分 ， 则 其 所 对 应 
的 Q 和 矩阵 如 (2) 所 示 。 
(2) 
当 测 验 考虑 个 属性 ， 若 采用 二 级 属性 ， 最 多 能 将 学 生 总 体 分 为 类 ， 而 采用 多 级 属 


性 (各 属性 可 能 的 取 值 个 数 记 为 )， 则 最 多 可 将 学 生 总 体 分 为 类 ， 很 明显 总 是 大 于 的 。 举 
个 简单 的 例子 ， 假 设 测验 考察 2 个 属性 ， 如 果 采 用 二 级 属性 ， 最 多 可 以 将 学 生 分 为 类 ， 
如 果 采 用 5 值 属 性 ， 则 可 以 将 学 生 分 为 类 。 


2.2 多 级 属性 下 的 诊断 模型 
已 开发 的 适合 多 级 属性 的 诊断 模型 主要 有 OCAC-DINA(Karelitz, 2004), LCDM 下 


的 多 级 属性 模型 (Templin & Bradshaw, 2004), GDM 对 应 的 多 级 属性 诊断 模型 (Haberman 
et al., 2008; von Davier, 2005)， 基 于 G-DINA 框架 下 的 多 级 属性 模型 ， 比 如 Chen 和 de 
la Torre(2013), Z&& RIZ 2 (2015), 高 阶 的 多 级 属性 模型 (Zhan et al., 2020)， 连 续 的 多 
级 属性 诊断 模型 (Shang et al., 2021) 等 。 在 这 里 ， 为 节省 篇 幅 ， 仅 仅 介 绍 与 本 文 有 关 的 
pG-DINA 和 p-DINA 模型 。 


pG-DINA (polytomous generalized deterministic inputs, noisy, “and” gate) R G-DINA 
模型 的 多 级 属性 版 本 (Chen & de la Torre, 2013)。 为 方便 介绍 并 且 不 失 一 般 性 ， 假 定 测 
验 中 所 有 属性 有 相同 的 水 平 数 ， 即 ， 相 关 的 符号 与 Chen 和 de la Torre (2013), de la 
Torre (2011) 保 持 一 致 。 其 中 用 来 表示 项 目 所 考察 的 属性 的 个 数 ， 为 方便 介绍 ， 假 设 项 
目 考 察 的 属性 恰好 是 前 个 属性 ， 项 目 所 需要 的 属性 可 以 表示 为 简化 的 向 量 ， 其 中 ， 中 
的 元 素 的 取 值 范围 是 ， 这 样 一 来 ， 项 目 /7 需要 考虑 的 属性 向 量 个 数 由 下 降 到 ， 即 将 那些 
没有 考察 的 属性 不 予 考虑 ， 当 然 这 样 的 简化 也 可 以 提高 参数 估计 的 速度 。 
在 p-DINA 模型 下 ， 每 个 项 目 都 将 学 生 分 为 两 类 ， 即 掌握 项 目的 学 生 ( 掌 握 了 题目 
所 考察 的 属性 ， 并 且 考 生 对 属性 的 掌握 水 平 都 不 低 于 题目 所 考察 的 水 平 ) 和 未 掌握 项 目 
的 学 生 ( 没 有 完全 掌握 题目 所 考察 的 属性 ， 或 者 考生 对 属性 的 掌握 至 少 有 一 个 低 于 题目 
所 考察 的 水 平 )。 进 一 步 ， 对 于 项 目 7 来 阅 ， 若 ， 则 学 生 在 该 属性 上 的 掌握 情况 可 以 压 
缩 为 一 个 二 级 的 状态 ， 即 


(3) 
记 为 压缩 后 的 属性 掌握 向 量 ， 其 中 ， 这 样 就 将 被 试 参数 的 个 数 由 下 降 到 ， 关 于 这 
部 分 的 详细 过 程 请 参考 Chen Fil de la Torre (2013) 的 Table 2. 
在 pG-DINA 模型 的 饱和 形式 下 ， 属 性 向 量 为 的 被 试 正 确 作 答 项 目的 概率 为 


(4) 
其 中 表示 项 目的 截 距 参 数 ， 即 学 生 未 掌握 该 项 目的 任何 属性 时 的 作答 概率 ;是 属性 的 


3 


1 ， 主 效应 ， 即 学 生 掌握 属性 所 带 来 的 正确 作答 概率 增加 的 部 分 ， 是 属性 和 的 交互 效应 ， 
2 ” 即 学 生 同 时 掌握 属性 和 所 带 来 的 正确 作答 概率 增加 的 部 分 ， 是 属性 的 交互 效应 。 

3 当 只 考虑 截 距 和 阶 交 互 效 应 时 ， 则 pG-DINA 就 变 成 了 p-DINA 模型 ， 当 只 考虑 截 
4 距 和 个 属性 的 主 效应 时 ， 则 则 pG-DINA 就 变 成 了 pA-CDM 模型 ， 其 它 的 模型 ， 如 p- 
5 DINO, pR-RUM 等 模型 也 可 以 在 pG-DINA 模型 上 增加 约束 获得 。 因 为 p-DINA 模型 相 
6 ”对 简单 ， 所 以 本 研究 中 基于 p-DINA 模型 研究 多 级 属性 Q@ 和 矩阵 的 估计 和 验证 。 


7 3 多 级 属性 Q 矩阵 的 估计 方法 
8 在 介绍 多 级 属性 Q 矩阵 的 估计 之 前 ， 首 先 对 二 级 属性 Q 矩阵 的 估计 方法 作 个 简单 


9 回顾。 在 BCDA 中 ， 有 很 多 研究 者 对 Q 矩阵 的 验证 和 估计 进行 了 深入 的 研究 ， 比 如 de 
10 la Torre (2008) 提 出 的 方法 ， 涂 冬 波 ， 莹 艳 和 戴 海 崎 (2012) 采 用 的 方法 ，DeCarlo (2012) 
采用 的 贝 叶 斯 方法 ，Liu 等 人 (2012) 提 出 的 基于 S 统计 量 的 方法 ，Xiang (2013) 采 用 的 
12 ”惩罚 估计 进行 探索 的 方法 ，Chung (2014) 采 用 MCMC 估计 进行 探索 的 方法 ， 喻 晓 锋 等 
13 ”人 (2015) 采 用 的 基于 5 统计 量 的 联合 估计 方法 ; de la Torre 和 Chiu (2016) 基 于 G-DINA 
e 14 “模型 提出 了 一 种 经 验 的 Q 矩阵 验证 的 方法 ，Wang sr A(2020)£€ EA Q 3E BEA B 77 ed H 
15 ”的 属性 定义 基础 上 ， 对 几 种 基于 似 然 比 检验 的 方法 进行 了 比较 ; Yu 和 Cheng (2020) 考 
16 ” 虑 了 一 种 基于 残 差 的 Q 和 矩阵 验证 方法 等 。 
17 在 众多 的 方法 中 ， 基 于 统计 量 的 方法 是 完全 基于 作答 数据 的 客观 方法 ， 并 且 Liu 
N 18 ”等 人 对 它 相 应 的 理论 基础 进行 了 严格 的 证 明 (Liu et al., 2013; Xu, 2013)， 该 方法 不 依赖 
= 19 “于 有 具体 的 诊断 模型 和 测验 计 分 方式 ， 有 非常 好 的 拓 广 性 。 因 此 本 研究 拟 将 统计 量 拓展 
o 020 到 适合 多 级 属性 Q 矩阵 的 估计 。 考 虑 实际 应 用 中 可 能 出 现 的 两 种 情况 ， 第 一 种 情况 与 
= 21 Liu @A(2012)AH IA], BU ASAE T QER, WAN, AeA EAC IEUS 
€ 22 ” (完全 正确 是 指 中 每 个 项 目的 属性 向 量 都 正确 )， 因 此 需要 采用 客观 的 方法 进行 验证 ， 这 
23 ”里 拟 对 统计 量 进行 拓 广 ， 使 之 适合 多 级 属性 情况 下 的 Q 矩阵 验证 ;考虑 的 另 一 种 情况 
24 ”是 手头 只 有 少数 的 项 目 属性 向 量 已 经 界定 ， 有 更 多 的 “新 项 目 ” 需 要 属性 向 量 的 定义 ， 
25 ” 即 考虑 多 级 属性 情况 下 的 Q 和 矩阵 估计 。 为 方便 介绍 ， 记 适合 二 级 属性 的 统计 量 为 ， 适 
26 ” 合 多 级 属性 Q 和 矩阵 的 统计 量 为 。 
27 下 面 介 绍 基于 统计 量 的 多 级 属性 Q 和 矩阵 的 估计 。 


uy 
[uy 
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28 3.1 基于 统计 量 的 多 级 属性 Q SB RETE 
29 构建 统计 量 的 核心 是 TT 矩阵 ，T 甜 阵 中 的 元 素描 述 的 是 不 同 能 力 的 考生 在 测验 单 


30 “个 题目 上 或 所 有 可 能 题目 组 合 上 的 期 望 正 确 作 答 概 率 ， 它 将 期 望 作答 分 布 和 模型 结构 
31 ”联系 起 来 了 ， 是 Q 矩阵 定义 的 反映 ， 它 建立 起 了 属性 分 布 和 作答 分 布 间 的 线性 依赖 关 
32  f(Liuetal., 2012, 2013; Qin et aL, 2015). 


测验 考察 了 个 属性 ， 每 个 属性 有 个 水 平 ， 因 此 ， 学 生 的 属性 掌握 状态 有 种 可 能 。T 
矩阵 一 共有 列 ， 工 矩阵 的 行 分 别 对 应 了 各 类 学 生 对 单个 项 目 、2 个 项 目的 组 合 、…，J 
个 项 目 组 合 的 正确 作答 概率 ， 此 时 构建 的 工 和 矩阵 如 下 (4) 所 示 。 


(4) 
的 行 表示 各 单个 项 目 及 其 所 有 可 能 的 组 合 ， 共 有 行 ， 其 中 对 应 的 行 表 示 同 时 正确 


作答 项 目 1 和 项 目 2 的 概率 ; 的 列表 示 所 有 可 能 的 学 生 类 ， 在 不 考虑 属性 间 关 系 的 情 
Wi P. RA MF JI. 

假设 学 生 的 总 体 分布 记 为 ， 通 第 情况 下 ， 在 没有 先 验 信息 的 情况 下 可 以 把 按 均 义 
分 布 处 理 ， 在 估计 过 程 中 采用 经 验 贝 叶 斯 方法 (de la Torre, 2009) 来 对 其 进行 更 新 。 

学 生 在 各 单个 项 目 及 其 可 能 组 合 ( 即 ) 上 的 期 望 作答 分 布 可 以 通过 得 到 ， 如 (5) 式 所 
示 ， 其 中 ， 表 示 该 被 试 总 体 中 正确 作答 项 目 1 的 期 望 概率 ， 其 计算 方法 如 (6) 所 示 。 


(5) 
(6) 
其 中 ， 表 示 被 试 的 属性 掌握 模式 全 集 。 另 一 方面 ， 学 生 的 观察 作答 分 布 (用 表示 ) 可 


以 从 作答 数据 中 得 到 ， 这 里 项 目 参数 (用 表示 ) 使 用 EM 算法 (de la Torre, 2011) 估 计 ， 学 
生 的 知识 状态 (用 表示 ) 通 过 MAP 算法 (de la Torre, 2009) 得 到 。 当 Q 矩阵 界定 正确 ， 各 
参数 误差 较 小 的 情况 下 ， 根 据 大 数 定律 ， 在 被 试 人 数 足 够 多 ， 即 时 ， 有 成 立 ， 即 测验 
总 体 的 观察 作答 分 布依 概率 收敛 于 其 期 望 分 布 (Liu et al., 2012, 2013; Xu, 2013)。 当 包含 
猜测 和 失误 时 ，Q 算 阵 中 包含 的 错误 越 少 ， 此 时 和 之 间 的 距离 应 该 越 小 ， 因 此 估计 多 
级 属性 Q 矩阵 的 目标 函数 为 


(7) 
(8) 
其 中 ， 表 示 一 个 一 般 的 Q 矩阵 ， 其 正确 性 未 知 ， 表 示 Q 矩阵 的 估计 值 ，“arg inf* 表 示 


在 整个 可 能 的 Q 和 矩阵 空间 中 ， 使 函数 取 最 小 值 时 的 Q 和 矩阵 即 为 其 估计 值 。 
下 面 介 绍 适合 于 前 面 提 到 的 两 种 应 用 情境 的 算法 。 


3.2 基于 统计 量 的 联合 估计 算法 下 
记 测 验 真实 的 Q 矩阵 为 ， 从 专家 界定 的 Q 矩阵 (初始 Q 和 珑 阵 ， 其 中 包含 错误 ) 出 发 ， 


即将 作为 输入 ， 通 过 联合 估计 算法 ， 得 到 Q 和 抑 阵 的 估计 值 ， 项 目 参 数 和 被 试 参数 ， 比 
较 与 之 间 的 差异 ， 如 果 与 完全 一 致 ， 则 表明 算法 成 功 估 计 ， 并 且 计 算 各 参数 的 估计 精 
度 ; 否则 估计 不 成 功 。 联 合 估计 算法 具体 过 程 如 下 所 示 : 

(基于 ， 作 答 数 据 X， 分 别 采 用 EM，MAP 算法 估计 项 目 参 数 和 被 试 参数 (Chen & 
de la Torre, 2013)， 并 计算 。 

(2) 在 中 ， 固 定 其 它 项 目 ， 对 项 目 ， 取 其 属性 向 量 为 (可 能 的 取 值 空间 记 为 ， 有 种 
取 值 )， 得 到 ， 估 计 参 数 ， 并 计算 ， 取 最 小 时 对 应 的 作为 项 目 j 的 属性 向 量 ， 即 : 
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(3) 当 所 有 项 目 都 完成 估计 ， 记 为 一 次 迭代 ， 此 时 得 到 的 Q ABIERTAS, OR Sse 
一 致 ， 转 到 步 又 (3);， 否则 迭代 次 数 加 1， 转 到 步 又 (4)。 

(4) 将 ， 重 复 步 又 (2)。 

(5) 算 法 结束 ， 输 出 和 此 时 的 参数 估计 值 和 。 


3.3 基于 统计 量 的 在 线 估计 算法 OE 
下 算法 需要 专家 已 经 对 测验 中 的 所 有 项 目 属性 均 已 界定 ， 只 是 其 中 包含 错误 。 不 


同 的 是 ，OE 算法 只 需要 专家 对 少 部 分 项 目 已 经 界定 ， 对 剩余 的 项 目 未 界定 (可 以 是 以 
下 三 种 情况 : 新 编制 的 项 目 需要 界定 属性 、 专 家 之 间 对 属性 界定 持 不 同意 见 的 项 目 、 
属性 定义 不 确定 或 有 怀疑 的 项 目 )， 在 这 种 情况 下 ， 可 以 采用 OE 算法 进行 估计 。 

记 已 界定 属性 癌 量 的 这 部 分 项 目 为 ， 剩 余 需 要 界定 的 项 目 记 为 ， 因 为 部 分 已 经 界 
定 ， 每 次 从 中 无 放 回 地 取出 一 个 项 目 ( 记 为 ) 加 入 到 中 ， 估 计 的 属性 向 量 ， 将 ， 重 复 这 个 
过 程 ， 直 到 为 空 。 在 线 估计 算法 的 具体 过 程 如 下 所 示 : 

(1) 从 中 无 放 回 地 取出 一 个 项 目 加 入 到 中 ， 为 方便 介绍 且 不 失 一 般 性 ， 假 设 新 加 入 
的 项 目 总 是 放 在 第 一 行 ， 即 。 

(2) 基 于 ， 作 答 数 据 ， 估 计 项 目 参 数 和 被 试 参数 ， 并 计算 。 

(3) 在 中 ， 对 新 加 入 的 项 目 ， 取 其 属性 向 量 为 ， 估 计 参 数 ， 并 计算 ， 取 最 小 时 对 应 
的 作为 项 目 j 的 属性 向 量 ， 即 : 


(4) 如 果 不 为 空 ， 重 复 步 又 (1);， 否 则 转 到 步 又 (5)。 
(5) 算法 结束 ， 输 出 的 估计 值 。 
需要 说 明 的 是 ， 当 初始 时 完全 正确 且 包 含 适 当 数 量 时 ， 这 种 “ 增 量 式 ” 的 OE 算法 
每 次 只 对 第 一 个 项 目 进行 估计 ， 可 以 有 效 地 避免 了 一 次 加 入 多 个 错误 项 目 所 带 来 的 
^ Ji =A (masking effect; Fung, 1993; Yuan & Zhong, 2008)"; 但 是 如 果 也 包含 错误 或 
者 数量 较 少 时 ，OE 算法 对 部 分 项 目的 估计 仍 可 能 包含 错误 ， 此 时 需要 对 OE 算法 的 输 
tH Q 德 阵 采用 了 正 算 法 进行 估计 ， 即 采用 “二 次 校正 ”的 方法 来 保证 估计 的 正确 


HE 


4 研究 设计 

为 了 评价 基于 S 统计 量 的 两 种 算法 对 于 多 级 属性 Q 和 矩阵 估计 的 表现 ， 我 们 通过 模 
拟 研究 考察 它们 在 不 同 的 条 件 下 成 功 识别 正确 Q 矩阵 的 可 能 性 。 如 前 面 所 述 ， 假 设 手 
头 已 有 专家 界定 的 Q 矩阵 ， 这 个 Q 矩阵 中 可 能 存在 少量 的 错误 ， 为 考察 统计 量 的 表现 ， 
分 两 种 情况 ， 第 一 种 情况 : 中 的 属性 向 量 被 界定 错误 仅仅 是 部 分 属性 的 值 存在 大 小 上 
的 错误 ， 即 将 属性 的 值 过 高 的 设 定 或 过 低 (但 不 包括 0) 的 设 定 ， 比 如 的 值 应 该 为 2， 但 
实际 上 专家 将 其 界定 为 1 或 3， 第 二 种 错误 情况 ， 既 存在 属性 的 值 在 大 小 上 的 错误 ， 也 
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存在 误 设 未 考察 的 属性 或 缺失 考察 的 属性 ， 比 如 : 误 将 设置 为 。 在 不 引起 误解 的 情况 
下 ， 下 文 将 这 两 种 类 型 的 错误 分 别 简称 为 错误 工 和 错误 LORS EER I AFR TL HT DLA 
可 能 的 属性 向 量 空间 分 别 记 为 。 可 以 看 出 ， 错 误工 是 实际 测验 中 的 一 般 情 形 ， 错 误 I 
是 它 的 一 种 特殊 的 情形 。 

由 于 本 研究 中 被 试 可 能 的 属性 掌握 模式 数 为 ， 如 果 被 试 人 数 为 500 的 均匀 分 布 总 
体 ， 则 平均 每 类 被 试 数量 偏 少 ， 仅 为 2.06， 故 样本 量 最 小 取 1000 A. 


4.1 对 于 JE 算法 
为 了 研究 统计 量 在 多 级 属性 Q BP INR, SBM AAA: 项 目 个 数 ， 测 


验 人 数 ， 包 含 错误 的 项 目 个 数 和 错误 项 目的 类 型 共 四 个 因素 ， 其 中 项 目 个 数 参考 Chen 
和 de la Torre (2013) 关 于 多 值 属性 Q EREE, ELE 2 个 水 平 ， 分 别 为 13 和 30， 测 
试 人 数 (3 个 水 平 ，1000，2000 和 4000)， 包 含 错误 的 项 目 类 型 (2 个 水 平 ， 错 误工 和 错误 
ID 和 错误 的 项 目 个 数 。 错 误 的 项 目 个 数 参考 Liu 等 人 (2012) 的 设置 ， 共 3 个 水 平 ， 分 别 
为 3，4 和 5， 表 明 “ 初 始 的 Q 和 矩阵 ”中 包含 3，4 或 5 个 属性 向 量 被 错误 标定 的 题目 ， 
余下 题目 的 属性 向 量 都 是 被 正确 标定 的 。 因 此 ， 一 共有 个 实验 条 件 。 


4.2 对 于 0E 算法 
上 下 算法 中 ， 已 假定 专家 对 所 有 的 个 项 目 都 进行 了 属性 向 量 界定 ，OE 与 卫 算法 不 


一 样 的 是 专家 只 是 对 “基础 项 目 ” 部 分 进行 了 界定 ， 余 下 的 是 需要 估计 的 “新 项 目 ”。 
本 研究 中 这 部 分 “新 项 目 ” 的 属性 向 量 初 值 是 随机 生成 的 。 这 里 考察 的 因素 主要 有 : 
项 目 个 数 (与 下 算法 一 样 ， 仍 然 是 2 个 水 平 ， 分 别 为 15，30)， 测 试 人 数 ( 与 正 算 法 相 
同 ， 还 是 3 个 水 平 ，1000，2000 和 4000)， 基 础 项 目 个 数 参考 Qin 等 人 (2015, 2020) 的 设 
置 ， 其 中 测验 长 度 为 30 时 有 8 个 水 平 ， 分别 是 8，9，10，11，12，13，14 和 15; 测 
验 长 度 为 15 时 有 6 个 水 平 ， 分 别 是 5，6，7，8，9，10。 因 此 ， 一 共有 个 实验 条 件 。 


4. 3 数据 模拟 


4.3.1 Q BRE 
测验 的 真实 Q 和 矩阵 如 附录 中 的 表 Al 和 表 A2 所 示 ， 中 共有 30 个 项 目 ， 中 有 15 个 


项 目 (Chen & de la Torre, 2013; Yu & Cheng, 2020)。 为 方便 区 分 ， 将 包含 30，15 个 项 目 
的 Q 和 窍 阵 记 为 ，。 


4. 3. 2 项 目 参 数 
项 目 参数 假设 服从 均匀 分 布 ， 猜 测 参 数 和 失误 参数 都 按 模拟 。 


4. 3. 3 被 试 参数 
被 试 的 知识 状态 分 布 按 均 匀 分 布 模拟 ， 即 种 知识 状态 的 被 试 人 数 相近 。 


4. 3.4 作答 数据 
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基于 真实 的 Q JERE. MA BRAM PAS A, tR p-DINA 模型 模拟 作答 数据 。 
4.3.5 初始 Q 和 矩阵 

(对 于 正 算 法 ， 随 机 从 真实 Q 抢 阵 的 个 项 目 中 选 出 若干 个 项 目 ， 并 将 其 属性 向 量 
按照 预定 方案 (错误 I 和 错误 廿 修改 成 错误 的 状态 ， 但 不 能 是 全 0 的 向 量 ， 也 不 能 是 其 
正确 的 值 ， 将 修改 后 的 矩阵 作为 “初始 Q 和 矩阵 ”。 

(DIF OE 算法 ， 随 机 从 真实 Q 甜 阵 的 个 项 目 中 选 出 若干 个 项 目 作 为 “基础 项 
目 ”， 而 余下 的 项 目 作 为 “新 ”项 目 ，“ 新 ”项 目的 属性 向 量 初 始 值 按 随机 方式 生成 ， 
但 不 能 是 0 向量 ， 也 不 能 是 其 正确 的 向 量 。 


a 
cir 


4.3.6 参数 估计 
数据 的 模拟 和 分 析 采 用 matlab 编写 程序 完成 ， 每 种 实验 条 件 重 复 100 次 ， 最 后 取 


100 次 的 平均 值 作为 最 终 的 结果 。 


4. 3. 7 评价 指标 
这 里 采用 三 个 指标 来 评价 多 级 属性 Q 矩阵 估计 算法 的 表现 ， 分 别 是 : Q 和 矩阵 成 功 


恢复 率 、 平 均 迭 代 次 数 和 平均 执行 时 间 。Q 矩阵 成 功 恢复 率 是 指 在 某 种 条 件 下 的 100 
批 数据 中 ， 算 法 输出 的 Q 矩阵 完全 匹配 真实 Q 矩阵 的 比率 ， 计 算 公 式 为 


，(9) 
这 里 7 为 实验 重复 次 数 ， 这 里 取 100，7 为 示 性 函数 ， 在 和 完全 一 致 时 取 1， 否 则 
取 0。 
平均 迭代 次 数 是 对 100 OAT A ERRAR FE . 
，(10) 


表示 第 批 数据 需要 的 欠 代 次 数 。 
与 平均 迭代 次 数 类 似 ， 我 们 同样 也 分 别 记 录 了 两 种 方法 的 平均 执行 时 间 ， 它 也 描 
述 了 对 应 方法 的 计算 效率 ， 具 体 计算 公式 为 


，(11) 
这 里 表示 第 批 数 据 需 要 的 执行 时 间 ， 以 秒 为 单位 。 上 面 的 三 个 指标 中 ， 描 述 的 是 算法 
的 估计 精度 ， 值 越 大 表示 算法 的 估计 精度 越 高 。 和 描述 的 是 算法 的 运行 效率 ， 值 越 小 
表明 算法 的 效率 越 高 。 


4.4 研究 一 多 级 属性 Q 矩阵 和 参数 的 联合 估计 
联合 估计 适合 的 测验 情形 是 ， 专家 已 对 测验 项 目 都 已 界定 ， 只 是 对 部 分 项 目的 属 


性 定义 尚 不 确定 、 可 能 界定 错误 或 意见 不 统一 时 使 用 。 采 用 下 算法 可 以 对 Q 和 矩阵 进行 
验证 ， 并 且 输 出 建议 的 Q@ 和 矩阵 。 下 面 分 两 种 错误 类 型 进行 介绍 。 


4. 4. 1 仅仅 存在 属性 值 界 定 错误 时 的 联合 估计 
在 实际 应 用 中 ， 专 家 在 界定 茶 些 项 目的 属性 值 时 出 现 分 卜 或 错误 的 情况 ， 即 前 面 


NS 


所 介绍 的 错误 I， 这 是 一 种 相对 简单 的 情形 。 因 此 本 研究 考察 当初 始 QERA BEA) 391 
目 仪 仅 出 现 属性 低估 或 高 估 的 情况 (不 包括 低估 至 0 或 从 0 高 估 的 情况 )。 

学 生 在 测验 中 的 作答 模拟 是 按 真 实 Q 矩阵 完成 ， 只 是 在 分 析 数 据 时 采用 包含 错误 
HI IR Q IERE” EKWA RH 下 算法 来 实现 对 Q 和 矩阵 、 项 目 参 数 和 被 试 参数 的 联 
合 估计 ， 最 后 比较 算法 估计 得 到 的 Q 和 矩阵 与 真实 Q 矩阵 之 间 的 差异 ， 若 完全 一 致 ， 则 
估计 成 功 ， 和 否则 估计 失败 ， 并 且 统计 估计 过 程 中 的 迭代 次 数 。 


4.4.2 存在 属性 值 错误 、 含 多 余 属 性 或 缺失 必要 属性 时 的 联合 估计 
相对 来 说 ， 错 误工 是 比 错误 I 更 严重 的 错误 ， 因 为 不 但 会 出 现 属性 低估 和 高 估 ， 


同时 还 会 出 现 将 未 考察 的 属性 包含 进来 ， 也 可 能 会 出 现 将 考察 的 属性 遗漏 ， 这 在 实际 
应 用 也 是 有 可 能 出 现 的， 错误 工 可 以 看 成 是 错误 I 的 一 种 特殊 情形 。 因 此 本 研究 考察 
当初 始 Q 和 矩阵 出 现 错误 工时 下 算法 的 表现 。 


NS 


4.5 研究 二 多 级 属性 0 矩阵 和 参数 的 在 线 估计 
在 线 估计 算法 OE 适合 的 妃 一 种 测验 情形 ， 即 仅仅 少 部 分 项 目 被 正确 界定 ， 有 大 批 


项 目 需要 定义 属性 向 量 的 情况 ， 比 如 对 编制 的 一 批 新 题 进行 界定 (包括 属性 向 量 和 参数 )， 
“新 项 目 ” 的 属性 向 量 不 需要 专家 进行 初始 界定 ， 可 以 按 随机 方式 生成 ， 在 这 种 情况 
下 ， 可 以 借助 已 有 项 目的 信息 ， 完 成 对 新 项 目的 界定 。 

界定 时 需要 学 生 同 时 作答 “基础 项 目 ” 和 “新 项 目 ”， 估 计时 固定 “基础 项 目 ” 
的 属性 向 量 ， 只 需要 估计 “新 项 目 ” 的 属性 癌 量 。 为 了 充分 利用 已 有 人 信息， 减少 “ 噪 
音 ” 信 息 引 起 的 “ 遮 轩 效应 ”(masking effect; Fung, 1993; Yuan & Zhong, 2008) 带 来 的 负 
看 影响 ， 估 计时 采用 每 次 只 加 入 一 个 “新 项 目 ” 的 增 量 式 估 计 的 方式 进行 。 并 且 ， 为 
了 降低 由 于 “基础 题 ”的 质量 所 带 来 的 影响 ， 在 OE 算法 结束 后 ， 对 整个 Q 和 矩阵 再 使 
用 正 算 法 进行 整体 估计 ， 提 高 估计 的 成 功率 。 最 后 比较 算法 估计 得 到 的 Q 矩阵 与 真实 
Q 和 矩阵 之 间 的 差异 ， 若 完全 一 致 ， 则 估计 成 功 ， 否 则 估计 失败 ， 并 且 统 计 估计 过 程 中 
的 迭代 次 数 。 

需要 注意 的 是 ， OE 算法 中 是 指 完成 所 有 的 “新 项 目 ” 估 计 后 ， 如 果 “ 新 项 目 ” 
没有 估计 成 功 ， 则 对 包含 “基础 项 目 ” 和 “新 ”项 目的 Q@ 和 矩阵 用 下 算法 进行 联合 估计 ， 
羽 此 从 这 个 角度 来 看 ，OE 算法 中 的 迭代 次 数 与 了 算法 中 一 样 ， 也 是 指 对 所 有 项 目 完 
成 一 次 估计 的 次 数 。 


4.6 试验 结果 


4.6.1 JE 算 法 的 估计 结果 

表 1- 表 4 是 下 算法 在 项 目 数 (30，15) 和 错误 类 型 [和 了 时 的 估计 结果 ， 从 结果 可 以 看 
出 ， 下 算法 在 估计 Q 算 阵 时 ， 其 执行 效率 和 正确 率 受 到 多 方面 因素 的 有 影响， 比如: 被 
试 人 数 ， 测 验 的 项 目 数 ， 包 含 的 错误 项 目 数 等 的 影响 。 研 究 一 和 研究 二 是 分 别 安排 在 
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台 云 服务 器 上 运行 的 ， 服 务 器 的 具体 配置 是 : CPU 是 2 颗 至 强 E3-2697， 十 二 核心 ; 
内 存 类 型 DDR5， 容 量 是 64G; 硬盘 类 型 是 固态 ， 容 量 512G。 从 算法 的 执行 效率 来 看 ， 
虽然 算法 的 搜索 空间 已 经 下 降 了 很 多 ， 但 是 依然 有 较 大 的 搜索 空间 ， 各 种 条 件 下 的 平 
均 执 行 时 间 仍 然 较 大 ， 最 低 情 况 下 需要 一 天 的 时 间 (89182.33 秒 )。 从 算法 的 正确 率 来 看 ， 
相对 来 看 ， 测 验 项 目 数 对 于 正确 率 的 影响 很 大 ， 测 验 项 目 从 30 下 降 到 1$， 估 计 成 功率 
平均 下 降 了 61.67%。 
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2 
包含 的 
i VR 
目 数 成 功率 (%) 
94 
92 
81 
3 
4 
5 
包含 的 
错误 项 
目 数 成 功率 (%) 
3 36 
4 21 
5 18 


OWOOND 


e 
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1000 
FH 
代 次 数 


1000 
“PEE 
代 次 数 

3.13 


3.63 


3.89 


2.05 


2.14 


2.30 


表 1 错误 类 型 时 于 算法 的 估计 成 功率 和 平均 迭代 次 数 


被 试 人 数 


平均 执行 
时 间 (S) 


197397. 50 
210386. 75 


234271. 81 


成 功率 


(%) 
98 


95 


94 


2 


PES 
代 次 数 


000 


2.04 


2,12 


2.19 


平均 执行 。、 
功率 (% 
时 间 (s) "7709 
205128. 4 98 
6 
208827. 4 96 
6 
A us 94 


3&2 错误 类 型 工时 下 算法 的 估计 估计 成 功率 和 平均 迭代 次 数 


被 试 人 数 


平均 执行 
时 间 (s) 


89182. 33 
90511. 47 


135365. 82 


E 


成 功率 
(%) 


46 
Pal, 


22 


2000 

平均 大 

代 次 数 
3.02 


3.44 


3.62 


平均 执行 

时 间 (s) 

101401.3 
2 

111399. 5 
2 

138115. 6 
5 


成 功率 (%) 
54 
38 


25 


4000 

PX 

代 次 数 
2.00 


2.14 


2.21 


4000 

“PEE 

代 次 数 
2.92 


3.33 


3.47 


平均 执行 
时 间 (s) 


211650. 67 
213588. 22 


215590. 22 


平均 执行 
时 间 (S) 


109542. 61 
115674. 36 


144921. 76 
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从 表 1 和 表 2 中 可 以 看 出 ， 被 试 人 数 和 测验 项 目 数 都 与 Q 抢 阵 估计 成 功率 有 正 
的 相关 关系 ， 而 错误 项 目 数 与 Q@ 矩 阵 估 计 成 功率 则 有 人 负 疝 的 相关 关系 。 根 据 本 碳 


H 1 


的 条 件 ， 被 试 人 数 为 2000， 测 验 项 目 数 为 30， 可 以 达到 较 好 的 估计 结果 。 且 体 来 说 ， 


对 于 估计 成 功率 ， QERAR 30 IN BAA 
情况 都 要 小 于 60%。 从 迭代 次 数 来 看 ， 测 验 项 目 数 为 15 时， 各 样本 条 作 


和 欠 代 次 数 小 于 2.5， 而 当 项 目 数 达到 30 时 ， 对 应 需要 的 迭 代 次 数 超过 3。 


SRR (%) 


3 


下 表 3 和 表 4 分 别 


3 (OTITIS 


JER AX QMQ" 的 估计 结果 (错误 1) 


本 9 
T Mens 
MN EET 
4 5 
属性 向 量 错误 界定 的 项 目 数 


图 1 错误 类 型 


上 算法 对 Qi 和 Q25 的 平均 迭代 次 数 (错误 1) 


属性 向 量 错误 界定 的 项 目 数 


。O。 Q1-2000 
+ «A+ + Q1-4000 
++ + Q2-1000 
**6** Q2-2000 
* *À* * Q2-4000 


Tih, JE SEVERI f aa AR 


e eŒ + Q1-1000 
**Q** Q1-2000 
** A» * Q1-4000 
* lil + Q2-1000 
+ e @ + Q2-2000 
* e å» * Q2-4000 


图 2 错误 类 型 1 时 ， 下 算法 的 迭代 次 数 


是 测验 项 上 


F 下 都 能 达到 80% 以 上 ， 而 15 题 时 最 好 的 


-下 需要 的 平均 


BA 30, 15, FFA Q 和 矩阵 中 包含 错误 类 型 工时 的 估 


计 结 果 。 可 以 看 出 ， 一 方面 被 试 人 数 的 增加 可 以 提高 下 算法 的 估计 成 功率 ， 比 如 测验 
长 为 30， 错 误 项 目 数 为 3 和 5 时 ， 被 试 人 数 从 1000 提高 到 4000， 舍 计 成 功率 分 别提 高 


了 7% 和 13%. 5—7j 


为 当 测 验 长 度 只 有 15， 
提高 


的 情况 正好 相反 。 
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错误 项 上 


本 ， 被 试 人 数 和 错误 项 目 数 会 对 估计 成 功率 会 产生 交互 作用 ， 因 
数 3 和 5， 人 数 从 1000 提高 到 4000， 估 计 成 功率 分 别 
18% 和 5%， 此 时 人 数 的 增加 对 低 错 误 项 目 数 影响 更 大 ， 这 与 测验 长 度 为 30 时 


包含 的 
HRM 


目 数 


3 


包含 的 
HRM 


目 数 


3 


14 


成 功率 (%) 
91 
90 


80 


成 功率 (%) 
33 
17 


15 


表 3 RKW IL, Ir JE AHS e tt CULO 3] S A ICI 


成 功率 
(%) 


97 
95 


89 


2000 
FIE 
代 次 数 
2.38 
2.58 


3.32 


平均 执行 


i 成 功率 (% 
时 间 (s) (9 
207354. 2 98 

2 
209615. 6 96 

8 
242336. 0 93 


1 


表 4 RKW TL, IE JE SIA VE LULA I RR 


被 试 人 数 
1000 
FE ”平均 执行 
Ry AG) 
2.94 217999. 39 
3.17 221085. 75 
3.75 254841. 29 
被 试 人 数 
1000 
ye 平均 执行 
Ru AG) 
3.34 92723. 60 
3.85 97788. 49 
4.41 144782. 21 


成 功率 
(%) 


45 
25 
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2000 

PEE 

代 次 数 
3.32 


3.74 


4.32 


平均 执行 、 

成 功率 (% 
时 间 (s) Un 
101737. 0 可 

7 
111740. 9 35 

8 
184428. 1 T 


8 


4000 

“PEE 

代 次 数 
2.43 


2.08 


3.58 


4000 

“PEE 

代 次 数 
3.28 


3.73 


4.27 


平均 执行 
时 间 (s) 


212017. 28 
214643. 81 


287900. 52 


平均 执行 
时 间 (s) 


119922. 70 
126056. 07 


195388. 36 


1 ”综合 表 1， 表 2， 表 3 和 表 4 可 以 看 出 ， 一 方面 ， 当 错误 类 型 为 时， 相同 人 数 、 
2 题目 条 件 下 要 上 略 低 于 错误 类 型 [时 的 估计 成 功率 ， 并 且 相 应 的 迁 代 次 数 也 要 更 多 ， 这 是 
3 ”因为 错误 类 型 工时 ， 项 目 属性 向 量 可 能 的 取 值 空间 更 大 所 导致 的 ， 另 一 方面 ， 从 平均 
4 运行 时 间 来 看 ， 相 对 于 错误 类 型 1， 固定 其 它 条 件 时 错误 类 型 了 各 对 应 的 实验 条 件 需要 
5 ”相对 更 多 的 运行 时 间 ， 这 一 点 是 和 更 大 的 迭代 次 数 相 一 致 的 。 

上 算法 对 Qu 和 Qus 的 估计 结果 (错误 中 


100 1933390032320000330000000010 Hass 
mu EM Sms 
80 + +O + Q1-1000 
Ce 70 + +O» + Q1-2000 
5 60 » e A» + Q1-4000 
50 Mr **6* * Q2-1000 
& 40 人 toes, ... © o À» * 02-2000 
30 ess ettari le. diee © «4» * 02-4000 
20 aT DUI EET 
v " Oe 3 
r 3 4 5 
oon 属性 向 量 错 误 界 定 的 项 目 数 
o 7 图 3 tH IY, JE SETS ERE 
P 8 
上 算法 对 Qi30 和 Q25 B FLIER AG RII) 
4.5 
ess 
4 ettet ++ + Q1-1000 
seil Rem cca Æ oce Q1-2000 
| 35 unis aen J Á— uei Ao. as * 01-4000 
上 gui "m o @ ..5. 02-1000 
> MA id et senta + +O» Q2-2000 
<S ee +s A + 02-4000 
2.5 6: HERE 
an 2 
- 3 4 5 
属性 向 量 错 误 界 定 的 项 目 数 
9 
10 图 4 错误 类 型 工时 ， 正 算法 的 迭代 次 数 
11 综合 图 1、 图 2、 图 3 和 图 4， 随 着 Q 和 矩阵 中 包含 的 错误 项 目 数 增加 ， 不 论 是 错误 


12 ”类 型 1 还 是 错误 类 型 I， 正 算法 估计 的 成 功率 在 下 降 ， 所 需要 的 迭代 次 数 在 增加 。 

13 4.6.2 0E 算 法 的 估计 结果 

14 表 5 和 表 6 分别 是 OE 算法 在 和 ， 不 同 基 础 题 时 的 在 线 估计 结果 ， 从 结果 来 看 ， 要 
15 ” 想 达 到 较 好 的 估计 成 功率 ， 不 同 被 试 人 数 需 要 的 基础 项 目 个 数 不 同 ， 被 试 人 数 越 多 时 
16 ”需要 的 基础 项 目 越 少 ， 比 如 对 于 ， 要 想 达 到 90% 以 上 的 估计 成 功率 ，1000 人 需要 10 个 
17 ”基础 题 ，2000 人 和 4000 人 只 需要 8 个 基础 题 即 可 ; 要 想 达 到 95 以 上 的 成 功率 ，1000 
18 ”人 和 2000 人 都 至 少 需要 13 个 基础 题 ， 而 4000 人 只 需要 12 个 基础 题 。 而 对 于 ， 要 想 达 
19 “到 80% 以 上 的 估计 成 功率 ， 三 种 被 试 人 数 都 需要 至 少 9 个 基础 题 。 对 于 相同 的 基础 题 


15 


1 


12 
13 


Bl, OE 算法 对 30 BLESS Q FARE THT HY GUI SERT. 15 题 的 Q FEM, ERA Aa H 
数 增加 提高 了 被 试 的 属性 掌握 模式 估计 准确 率 导致 的 。 当 基础 题 为 0 时，。 从 图 5 和 
图 6 来 看 ， 估 计 成 功率 是 随 着 基础 题 的 增加 而 增加 ， 所 需要 的 迭代 次 数 是 随 着 基础 题 
的 增加 而 减少 的 。 从 OE 算法 的 运行 效率 来 看 ， 随 着 “基础 项 目 ” 的 增加 ， 所 需要 的 运 
行 时 间 在 下 降 ， 比 如 在 测验 长 为 为 30，8 和 15 个 “基础 项 目 ”，1000 人 时 ， 平 均 运 行 
时 间 分 别 是 176481.88 和 23545. 31 秒 ， 这 是 因为 OE 算法 所 花费 的 时 间 主 要 是 由 “新 
题 ” 的 数量 和 联合 估计 决定 的 ， 而 联合 估计 过 程 的 耗 时 占用 了 时 间 的 大 部 分 ，8 和 15 
个 “基础 项 目 ” 条 件 下 的 平均 迭代 次 数 分 别 为 1.78 和 0.22。 


x 


OE 算法 对 Qs 的 估计 结果 
100 
98 2 
96 ma 
E NOM **6*« Q1, 1000 
L 94 NT. 
I QOUs9 nt "^ 
Ea en Ac 
^ 90 AUT en n 
ad 
88 o” 
86 
8 9 0 "d D 13 14 5 
基础 项 目的 数量 


图 5 OE 算法 在 的 估计 结果 
0E 算 法 估计 Q13? 时 的 平均 迭代 次 数 


14 755 +++ Q1 1000 
Hr 
al "s ++ As + Q1 2000 


。 O+ Q1 4000 


基础 项 目的 数量 
图 6 OE 算法 在 的 迭代 次 数 
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表 5 时 OE 算法 的 估计 成 功率 和 平均 迭代 次 数 


yy 被 试 人 数 
1000 2000 4000 
RoR SE Ye 平均 执行 成 功率 SE 平均 执行 m 平均 和 迭 平均 执行 
=> yy NG y. 、 wy, y 一 一 0 ES NT 
° 代 次 数 时 间 (s) (%) 代 次 数 时 间 (s) 代 次 数 时 间 (s) 
8 88 1.78 176481. 88 90 1.65 dide 6 91 1.57 171756. 48 
9 89 1.23 118728. 54 91 1.20 cm 3 93 1.14 122017. 14 
10 91 0.74 72991. 02 92 0.71 78193. 55 93 0.68 74526. 40 
11 92 0.49 49849. 71 92 0.47 51103. 55 94 0.39 41299. 84 
12 94 0.44 43077. 71 94 0.40 45441. 27 95 0.37 42427. 26 
13 95 0.37 38305. 11 95 0.35 40129. 54 96 0.27 30554. 28 
14 95 0.31 31613. 60 97 0.31 33325. 60 97 0.20 22460. 50 
15 96 0.22 23545. 31 98 0.20 24116. 44 99 0.14 15503. 14 


TE: OE SG SPP ES FO BE TET OH HE AT TES TT PER, WA TEA is EE TER EM, SH RS ORI 0. 
表 6 时 OE 算法 的 估计 估计 成 功率 和 平均 迭代 次 数 


m 被 试 人 数 
1000 _ 2000 = 4000 z 
日数 成 功率 (%) E 平均 执行 成 功率 FHJ 平均 执行 成 功率 (%) PBK 平均 执行 
代 次 数 时 间 (s) (%) 代 次 数 时 间 (S) 代 次 数 时 间 (s) 
5 37 1.98 59247. 69 46 1.65 60889. 27 57 1.57 65979. 07 
6 45 1.73 51665. 79 61 1.50 59236. 04 63 1.44 58697. 26 
7 56 1.54 51053. 47 69 1.47 54194. 22 72 1.39 52665. 52 
8 74 1.59 52259. 96 77 1.41 47412. 48 79 1.38 57552. 01 
9 81 1.24 37851. 94 85 1.14 42252. 64 91 1.07 42516. 31 


10 89 1.06 30857. 39 91 1.05 37500. 04 93 1.01 40903. 18 


0E 算 法 对 Q,5 的 估计 结果 


100 Q 
2 |__| 5 ES 
A 70 m m» M **0** Q2 1000 
WS 80 eee ast 
V^ 50 [ae Lá As 02. 
cc wg ur o A Q2, 2000 
nH 30 **O+Q2_4000 
20 
10 
0 
5 6 7 8 9 10 
基础 项 目的 数量 
2 
3 图 7 OE 算法 对 Q: 的 估计 结果 
0E 算 法 估计 Q,5 时 的 平均 迭代 次 数 
2.5 
20.... 
i. T e eQ. e Q2 1000 
E 15 人 ie 
< Vs Ss : «A+ + Q2, 2000 
1 UH 
**0** Q2 4000 
0.5 
0 
5 6 7 8 9 10 
基础 项 目的 数量 
4 
d 5 图 8 OE 算法 对 Q, 的 平均 迭代 次 数 
一 6 从 图 5- 图 8 可 以 看 出 ， 当 测验 项 目 数 从 30 降 到 15 时， 算法 所 需要 的 迭代 次 数 会 有 
‘© 7 ” 较 大 的 增加 ， 比 如 基础 题 为 10 个，1000 人 ， 长 度 30 和 15 的 测验 所 需要 的 迭代 次 数 分 
= 8” 别 为 0.74 和 1.06。 


o 9 5 实证 数据 分 析 
10 为 了 进一步 评价 两 种 算法 的 性 能 ， 将 它们 应 用 到 一 批 实证 数据 上 。 这 批 实证 数据 


11 是 来 自 于 某 市 高 中 的 一 次 月 考 ， 选 取 了 数学 试卷 中 与 概率 有 关 的 试题 。 这 部 分 测试 题 
12 “考察 了 随机 事件 ， 样 本 空间 ， 古 典 概率 ， 使 用 频数 估计 概率 共 四 个 属性 。 每 个 属性 有 
13 ”五 个 连续 的 掌握 类 别 : 不 了 解 ， 了 解 ， 理 解 ， 掌 握 和 应 用 ， 分 别 用 0, 1, 2, 3, 4 表示 。 
14 “基于 这 四 个 属性 ， 由 学 科 专 家 共 编 制 了 20 个 题 ， 一 共有 1960 个 考生 完成 了 测验 。 

15 以 专家 界定 的 “初始 Q@ 和 矩阵 ”( 表 7) 作为 输入 ， 分 别 采用 前 面 提出 的 两 个 算法 来 验 
16 “证 或 估计 Q 和 拢 阵 。 对 于 下 算法 ， 终 止 时 总 的 迭代 的 次 数 为 4， 这 个 结果 比 前 面 模拟 研 
17 “ 究 中 的 迭代 次 数 要 多 ， 这 也 表明 对 于 实际 的 测验 数据 通常 是 需要 更 多 次 的 从 代 才能 

18 ”达到 算法 的 收敛 条 件 。 正 算法 估计 得 到 的 “建议 Q 和 矩阵 ”如 附录 中 的 表 A3 所 示 。 可 
19 ”以 看 出 ， 一 方面， 下 算法 建议 修改 6 个 题目 ， 共 涉及 到 7 个 属性 ， 并 且 对 这 7 个 属性 


II 
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1 都 是 属性 水 平 上 的 修改 ， 即 认定 初始 Q 抢 阵 出 现 了 错误 类 型 I。 另 一 方面 ， 参 数 估计 的 
2 “结果 表明 考生 的 属性 掌握 模式 不 是 均匀 分 布 的， 整个 数据 中 只 出 现 了 76 种 属性 掌握 模 
3 3 

4 对 于 OE 算法， 我 们 选择 了 初始 Q 矩阵 中 的 5 个 题目 ( 表 A4 中 灰色 背景 显示 的 题 
5 E) ARR 5 个 题目 的 原因 是 学 科 专家 对 这 5 道 题 的 属性 定义 完全 一 致 ， 并 且 它 们 在 
e ”下 算法 的 建议 Q 和 矩阵 中 也 得 到 了 验证 。 余 下 的 15 道 题 作为 “新 题目 ”， 将 它们 逐个 用 
7 OE 算法 进行 估计 。 当 所 有 的 “新 题目 ”完成 了 估计 ， 再 用 下 算法 对 所 有 题目 进行 联 
8 ” 合 估计 ， 这 样 就 得 到 了 OE 算法 建议 的 Q 和 矩阵 ， 如 附录 中 的 表 AA 所 示 。 可 以 看 出 
9 ”OE 算法 建议 修改 6 个 题目 ， 共 涉及 6 个 属性 。 除 了 第 19 题 之 外 ， 由 下 和 OE 两 种 算 
10 ”法 得 到 的 建议 Q 和 矩阵 是 完全 一 致 的 。 对 于 第 19 题 ， 专 家 界定 的 初始 向 量 为 ， 下 和 OE 
11 ”算法 得 到 的 属性 向 量 分 别 是 和 。 在 与 5 位 一 线 的 教师 进行 讨论 之 后 ， 他 们 其 中 的 4 位 
12 ”都 倾向 于 同意 OE 算法 得 到 的 结果 ， 即 将 第 4 个 属性 初始 定义 的 水 平 2 修改 为 水 平 3。 


~ 


13 表 7 概率 数据 对 应 的 原始 Q 和 矩阵 

题目 题目 

编号 属性 1 属性 2 属性 3 属性 4 ppn 属性 1 属性 2 属性 3 属性 4 
1 1 1 0 0 11 0 0 4 2 
2 0 0 2 1 12 0 4 0 1 
3 0 3 0 4 13 2 0 3 0 
4 0 0 2 0 14 0 1 0 3 
5 1 2 0 0 15 2 1 0 0 
6 0 1 1 0 16 0 1 1 0 
7 0 2 0 0 17 0 2 0 0 
8 3 0 0 1 18 4 0 0 1 
9 1 1 0 0 19 0 0 4 2 
10 1 2 0 0 20 0 1 0 1 


14 6 讨论 与 进一步 的 研究 方向 
15 本 研究 将 适合 二 级 属性 Q@ 和 矩阵 的 估计 量 拓 展 到 多 级 属性 的 Q 矩阵 估计 中 ， 使 得 多 


16 ”级 属性 Q@ 和 矩阵 的 验证 和 估计 成 为 可 能 ， 并 针对 实际 应 用 中 的 两 种 常见 情境 ， 分 别 介 
17 了 两 种 算法 : 即 正和 OE 算法， 它们 分 别 适用 于 不 同 的 场合 。 当 手头 已 有 Q 和 矩阵 的 初 
18 ” 值 (可 以 由 专家 来 初步 界定 ) 时 ， 可 以 采用 下 算法 进行 验证 ， 而 OE 算法 是 当 手头 只 有 
19 ” 少 部 分 项 目的 属性 向 量 已 经 界定 ， 需 要 对 更 多 的 项 目 进行 定义 时 使 用 。 模 拟 实验 结 
20 表明， 尽管 多 级 属性 Q 窍 阵 的 搜索 空间 相对 于 二 级 属性 Q 矩阵 更 大 ， 但 这 两 种 算法 在 
21 各自 适用 的 情况 下 都 有 较 高 的 估计 成 功率 。 

22 mA JE Al OF 算法 在 模拟 条 件 下 取得 了 较 好 的 结果 ， 即 使 如 此 ， 到 和 OE 算法 仍 
23 ” 然 需 要 在 更 复杂 的 情况 中 去 验证 ， 对 于 下 算法 ， 这 里 只 考虑 “初始 Q 和 矩阵 ”中 包含 的 
24 ”错误 项 目 较 少 ， 对 于 更 多 错误 时 的 估计 或 者 所 能 容忍 的 最 大 错误 项 目 数量 需要 进一步 


19 


研究 ， 对 于 OE 算法 ， 研 究 中 随机 选择 了 100 批 “ 基 础 项 目 ”， 这 100 批 “ 基 础 项 目 ” 
的 质量 有 好 有 坏 ， 并 没有 考虑 “基础 项 目 ” 的 质量 对 于 估计 的 影响 ， 如 果 进 一 步 研究 
“基础 项 目 ” 的 设计 ， 使 之 更 有 利于 “新 项 目 ” 的 估计 ， 就 像 诊断 测验 中 的 Q@ 和 矩阵 设 
计 一 样 ， 在 基础 题 中 加 入 “可 达 和 矩阵 ”对 于 Q 矩阵 估计 的 影响 等 (Chen et al., 2015; T 
树 良 等 , 2019; 彭 亚 风 等 , 2016, 2018; Gu et al., 2018; Gu & Xu, 2021)， 应 该 是 很 有 意义 
的 工作 。 本 研究 中 无 论 是 于 还 是 OE 算法 ， 只 考虑 了 两 种 错误 类 型 ， 实 际 上 ， 还 有 可 
能 存在 其 它 的 错误 类 型 ， 未 来 需要 对 其 它 更 多 可 能 的 情况 进行 研究 。 另 外 ， 现 实 的 测 
验 情境 往往 是 很 复杂 的 ， 比 如 考生 可 能 是 存在 多 种 解 题 策略 的 ， 因 此 ， 结 合 多 种 策略 
的 诊断 测验 中 Q 和 矩阵 的 估计 需要 进一步 考虑 (黄玉 等 ,2019)。 测 验 的 属性 间 很 可 能 存 
在 某 种 层级 关系 ( 喻 晓 锋 等 , 2021)， 属 性 间 存 在 层级 关系 时 的 多 值 Q 矩阵 估计 也 是 未 
来 需要 研究 的 方向 。 
基于 S 统计 量 的 Q 算 阵 估计 一 个 不 足 之 处 在 于 需要 花费 较 多 的 时 间 ， 这 对 于 实际 
应 用 可 能 是 一 个 潜在 的 缺陷 ， 未 来 对 提出 的 方法 进行 时 间 效 率 上 的 改进 或 研究 时 间 效 
率 更 高 的 方法 都 值得 进一步 研究 。 比 如 Yu All Cheng (2020) 的 研究 表明 ，0-1 计 分 下 基 
于 残 差 统计 量 的 统计 量 比 基 于 S 统计 量 在 运行 效率 上 有 优势 ， 因 此 将 基于 残 差 的 统计 
量 拓 广 到 多 值 属 性 诊断 测验 的 Q 和 矩阵 估计 值得 考虑 ， 未 来 也 需要 进一步 考虑 一 些 非 参 
数 的 方法 ， 因 为 它们 通常 对 于 样本 量 的 要 求 较 小 ， 并 且 有 执行 效率 上 的 优势 ( 刘 娜 等 ， 
2021); 将 基于 深度 学 习 等 一 些 算法 拓 广 到 多 值 属性 诊断 测验 的 Q 和 矩阵 估计 ( 张 玉 柳 等 ， 
2021; Li et al., 2022) 也 需要 深入 研究 。 

实证 数据 的 分 析 表 明 ， 本 研究 中 提出 的 基于 S 统计 量 的 联合 估计 算法 和 在 线 估计 
算法 可 以 在 实际 中 应 用 ， 并 且 结果 显示 专家 对 于 题目 属性 向 量 的 错误 定义 更 容易 出 现 
在 高 估 或 低估 属性 的 水 平 上 ， 不 太 容 易 出 现 完全 缺失 某 个 属性 或 包含 额外 的 属性 等 更 
严重 的 情况 。OE 算法 的 一 个 副产品 是 同时 将 新 项 目的 参数 进行 了 估计 ， 并 且 它 能 保证 
与 基础 项 目的 参数 处 于 同一 个 尺度 上 。 将 属性 间 的 关系 纳入 考虑 需要 进一步 研究 ， 未 
来 也 需要 将 算法 应 用 到 其 它 的 诊断 模型 中 (Zhan et al., 2020)。 
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Abstract 


Cognitive diagnosis has recently gained prominence in educational assessment, 
psychiatric evaluation, and many other disciplines. Generally, entries in the Q-matrix of 
traditional cognitive diagnostic tests are binary (two levels, defined as 0 and 1). Polytomous 
attributes (multi-levels, defined as 0, 1, ), particularly those defined as part of the test 
development process, can provide additional diagnostic information. Compared to binary 
attributes, polytomous attributes can not only describe the student's knowledge profile, but can 
provide more extensive details. 

As we all know, Q-matrix impacts the accuracy of cognitive diagnostic assessment 
greatly. Research on the effect of parameter estimation and classification accuracy caused by 
the error in Q-matrix already existed, and it turned out that Q-matrix gotten from expert 
definition or experience was more easily subject to be affected by subjective factors, lead to a 
misspecified Q-matrix. Under this circumstance, it's urgently needed to find more objective 
polytomous-attribute Q-matrix verification and inference methods. 

The present research proposes the verification and estimation of expert-defined 
polytomous attribute Q-matrix based on the polytomous deterministic inputs, noisy, “and” 
gate (p-DINA) model. We intend to extend the methods adapted to binary Q-matrix 
verification and estimation to polytomous attribute Q-matrix, and the proposed methods 
which can be used in different conditions are joint estimation and online estimation. 
Simulation results show that: the joint estimation algorithm can be applied to the Q-matrix 
validation which needs an initial Q-matrix defined by experts, the online estimation algorithm 
can be applied to online estimate the "new items" based on a certain number of "based items". 
Under the various settings in the simulations, the two estimation algorithms can recover the 
correct polytomous-attribute Q-matrix at a high probability. Empirical study also indicates 
that the two proposed algorithms can be applied in Q-matrix validation or estimation for CDA 
with polytomous attributes. 


Keywords polytomous attribute, Q-matrix, PDINA, S statistics 
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注 :表格 


表 A3 由 了 算法 得 到 概率 论 数据 的 建议 Q-matrix 


项 目 mr 

编号 属性 1 属性 2 属性 3 属性 4 
1 Í 1 0 0 
2 0 0 2 2 
3 0 3 0 4 
4 0 0 2 0 
5 1 1 0 0 
6 0 2 1 0 
7 0 2 1 0 
8 3 0 0 1 
9 1 1 0 0 
10 1 2 0 0 
11 0 0 4 2 
12 0 4 0 1 
13 3 0 1 0 
14 0 1 0 3 
15 2 2 0 0 
16 0 1 1 0 
17 0 2 0 0 
18 4 0 0 1 
19 0 0 3 3 
20 0 2 0 1 


! 用 粗 斜体 显示 的 元 素 表示 JE 算法 所 修改 后 的 属性 取 值 


chinaXiv:202205.00168v1 


nuff WN 


TE: 阴影 显示 对 应 的 题目 表示 OE 算法 中 的 “基础 题 ”， 余 下 的 题目 对 应 的 是 需要 估计 
的 “新 题 ”。 粗 斜体 显示 元 素 表示 OE 算法 所 修改 后 的 属性 取 值 。 加 星 号 的 题目 表示 由 


表 A4 由 OE 算法 得 到 概率 论 数 据 的 建议 Q-matrix 
项 目 属性 
编号 属性 1 属性 2 属性 3 属性 4 


3 0 3 0 4 
HE eS a Saas 
5 1 1 0 0 
6 0 2 1 0 
7 0 2 1 0 
8 3 0 0 1 
IE 
10 1 2 0 0 
11 0 0 4 2 
12 0 4 0 1 
13 3 0 3 0 
14 0 1 0 3 
15 2 2 0 0 
18 4 0 0 1 
19* 0 0 4 3 
20 0 1 0 1 


OE 算法 给 出 的 建议 值 与 下 算法 给 出 的 建议 值 不 一 致 的 题目 。 
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